arxiv：2403.07692v2 [CS.CV] 2024年3月14日__

arxiv：2403.07692v2 [CS.CV] 2024年3月14日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2403.07692v2 [CS.CV] 2024年3月14日

¥ 1.0

热度

受到NLP通用模型的成功的启发，最近的研究试图以相同的序列格式统一不同的视力任务，并采用自回归的转移器来进行序列预测。他们应用单向关注以捕获顺序依赖性并递归生成任务序列。但是，这种自回旋变压器可能不太符合视觉任务，因为视觉任务序列通常缺乏自然语言中典型地观察到的顺序依赖性。在这项工作中，我们对有效的多任务愿景通用师（MAD）进行了掩饰。疯狂由两个核心设计组成。首先，我们开发了一个并行解码框架，该框架引入双向关注，以全面捕获上下文依赖项并在par-allel中解释视觉任务序列。第二，我们设计了一个掩盖的序列建模ap-prach，通过掩盖和重构任务序列来学习丰富的任务上下文。以这种方式，疯狂通过一个网络分支来处理所有任务，并以最小的特定任务设计来处理简单的跨凝结损失。广泛的实验证明了疯狂作为统一各种视觉任务的新范式的巨大潜力。MAD与自回归对应物相比，同时获得了特定于任务的模型的竞争精度，可以实现卓越的性能和推理效率。代码将在https://github.com/hanqiu-hq/mad上发布。

添加pdf代下载 VIP点击下载文件